Various datasets have been proposed for simultaneous localization and mapping (SLAM) and related problems. Existing datasets often include small environments, have incomplete ground truth, or lack important sensor data, such as depth and infrared images. We propose an easy-to-use framework for acquiring building-scale 3D reconstruction using a consumer depth camera. Unlike complex and expensive acquisition setups, our system enables crowd-sourcing, which can greatly benefit data-hungry algorithms. Compared to similar systems, we utilize raw depth maps for odometry computation and loop closure refinement which results in better reconstructions. We acquire a building-scale 3D dataset (BS3D) and demonstrate its value by training an improved monocular depth estimation model. As a unique experiment, we benchmark visual-inertial odometry methods using both color and active infrared images.
translated by 谷歌翻译
Mixup is a popular data augmentation technique for training deep neural networks where additional samples are generated by linearly interpolating pairs of inputs and their labels. This technique is known to improve the generalization performance in many learning paradigms and applications. In this work, we first analyze Mixup and show that it implicitly regularizes infinitely many directional derivatives of all orders. We then propose a new method to improve Mixup based on the novel insight. To demonstrate the effectiveness of the proposed method, we conduct experiments across various domains such as images, tabular data, speech, and graphs. Our results show that the proposed method improves Mixup across various datasets using a variety of architectures, for instance, exhibiting an improvement over Mixup by 0.8% in ImageNet top-1 accuracy.
translated by 谷歌翻译
High-definition (HD) semantic map generation of the environment is an essential component of autonomous driving. Existing methods have achieved good performance in this task by fusing different sensor modalities, such as LiDAR and camera. However, current works are based on raw data or network feature-level fusion and only consider short-range HD map generation, limiting their deployment to realistic autonomous driving applications. In this paper, we focus on the task of building the HD maps in both short ranges, i.e., within 30 m, and also predicting long-range HD maps up to 90 m, which is required by downstream path planning and control tasks to improve the smoothness and safety of autonomous driving. To this end, we propose a novel network named SuperFusion, exploiting the fusion of LiDAR and camera data at multiple levels. We benchmark our SuperFusion on the nuScenes dataset and a self-recorded dataset and show that it outperforms the state-of-the-art baseline methods with large margins. Furthermore, we propose a new metric to evaluate the long-range HD map prediction and apply the generated HD map to a downstream path planning task. The results show that by using the long-range HD maps predicted by our method, we can make better path planning for autonomous vehicles. The code will be available at https://github.com/haomo-ai/SuperFusion.
translated by 谷歌翻译
无源域的适应性(SFDA)旨在通过仅使用预训练的源模型将分类器调整为未标记的目标数据集。但是,缺乏源数据和域移动使目标数据对目标数据的预测不可靠。我们建议量化源模型预测中的不确定性,并利用它来指导目标适应。为此,我们通过在网络参数上合并先验,构建一个概率源模型,从而在模型预测上诱导分布。通过采用拉普拉斯近似值来估算不确定性,并合并以识别不在源歧管中的目标数据点并在最大化目标数据上的共同信息时减少重量。与最近的作品不同,我们的概率处理是计算轻量级,脱离源训练和目标适应,并且不需要专门的源培训或模型体系结构的更改。我们显示了不确定性引导的SFDA比封闭设置和开放式设置中的传统SFDA的优势,并提供了经验证据,即即使没有调整,我们的方法对于强大的域转移也更为强大。
translated by 谷歌翻译
视觉(RE)本地化解决了估计已知场景中捕获的查询图像的6-DOF(自由度)摄像头的问题,该镜头是许多计算机视觉和机器人应用程序的关键构建块。基于结构的本地化的最新进展通过记住从图像像素到场景坐标的映射与神经网络的映射来构建相机姿势优化的2D-3D对应关系。但是,这种记忆需要在每个场景中训练大量的图像,这是沉重效率降低的。相反,通常很少的图像足以覆盖场景的主要区域,以便人类操作员执行视觉定位。在本文中,我们提出了一种场景区域分类方法,以实现几乎没有拍摄图像的快速有效的场景记忆。我们的见解是利用a)预测的特征提取器,b)场景区域分类器和c)元学习策略,以加速培训,同时缓解过度拟合。我们在室内和室外基准上评估了我们的方法。该实验验证了我们方法在几次设置中的有效性,并且训练时间大大减少到只有几分钟。代码可用:\ url {https://github.com/siyandong/src}
translated by 谷歌翻译
这是普遍且观察到的,但知之甚少,两个在训练过程中具有相似性能的机器学习模型可能具有非常不同的现实性能特征。这意味着模型内部的难以捉摸的差异,表现为表示多样性(RM)。我们引入了一种概念性和实验设置,用于分析RM,并表明某些训练方法系统地导致RM比其他训练方法更大,这是通过通过单数矢量规范相关分析(SVCCA)激活相似性来衡量的。我们将其进一步与通过I.I.D的方差衡量的预测多样性相关联。在四个通用图像数据集中,分布外测试集预测。我们呼吁模型中的RM系统测量和最大暴露,而不是消除RM。诸如我们的炮板分析之类的定性工具可以促进与利益相关者的RM效应的理解和交流。
translated by 谷歌翻译
我们呈现HYBVIO,一种新的混合方法,用于利用基于优化的SLAM结合基于滤波的视觉惯性内径术(VIO)的混合方法。我们的方法的核心是强大的,独立的VIO,具有改进的IMU偏置建模,异常值抑制,实体性检测和特征轨道选择,可调于在嵌入式硬件上运行。使用松散耦合的SLAM模块实现了长期一致性。在学术基准中,我们的解决方案在所有类别中产生了出色的性能,特别是在实时用例中,我们优于最新的最先进。我们还展示了VIO使用自定义数据集对消费类硬件的车辆跟踪的可行性,并与当前商业诉讼替代品相比,表现出良好的性能。https://github.com/spectacularai/hybvio提供了Hybvio方法的开源实现
translated by 谷歌翻译
在许多控制问题中,包括视觉,可以从场景中对象的位置推断出最佳控制。可以使用特征点表示该信息,该特征点是输入图像的学习特征映射中的空间位置列表。以前的作品表明,使用无监督的预培训或人类监督学习的功能要点可以为控制任务提供良好的功能。在本文中,我们表明,可以在结束于结束的情况下学习有效的特征点表示,而无需无监督的预训练,解码器或额外损失。我们所提出的架构包括一个可怜的特征点提取器,其将估计的特征点的坐标直接馈送到软演员 - 批评者代理。所提出的算法对深度控制套件任务的最先进的算法产生了竞争力。
translated by 谷歌翻译
对抗性的鲁棒性已经成为深度学习的核心目标,无论是在理论和实践中。然而,成功的方法来改善对抗的鲁棒性(如逆势训练)在不受干扰的数据上大大伤害了泛化性能。这可能会对对抗性鲁棒性如何影响现实世界系统的影响(即,如果它可以提高未受干扰的数据的准确性),许多人可能选择放弃鲁棒性)。我们提出内插对抗培训,该培训最近雇用了在对抗培训框架内基于插值的基于插值的培训方法。在CiFar -10上,对抗性训练增加了标准测试错误(当没有对手时)从4.43%到12.32%,而我们的内插对抗培训我们保留了对抗性的鲁棒性,同时实现了仅6.45%的标准测试误差。通过我们的技术,强大模型标准误差的相对增加从178.1%降至仅为45.5%。此外,我们提供内插对抗性培训的数学分析,以确认其效率,并在鲁棒性和泛化方面展示其优势。
translated by 谷歌翻译
先前的作品已经为神经集功能建立了固体基础,以及有效的体系结构,这些架构保留了在集合上操作的必要属性,例如对集合元素的排列不变。随后,已经确定了在保持输出上保持一致性保证的同时,依次处理任何随机设置分区方案的任何置换的能力,但已建立了网络体系结构的选项有限。我们进一步研究了神经集编码功能中的MBC特性,建立了一种将任意非MBC模型转换为满足MBC的方法。在此过程中,我们为普遍MBC(UMBC)类的集合功能提供了一个框架。此外,我们探讨了通过我们的框架实现的有趣的辍学策略,并研究了其对测试时间分配变化下的概率校准的影响。我们通过单位测试支持的证据来验证UMBC,还提供了有关玩具数据,清洁和损坏的云云分类的定性/定量实验,并在Imagenet上摊销了聚类。结果表明了UMBC的实用性,我们进一步发现我们的辍学策略改善了不确定性校准。
translated by 谷歌翻译